Статья 3218

Название статьи

МЕТОДИКА СБОРА И ИНТЕЛЕКТУАЛЬНОГО АНАЛИЗА КОРОТКИХ СООБЩЕНИЙ ИЗ СЕТИ ИНТЕРНЕТ С ЦЕЛЬЮ
ВЫЯВЛЕНИЯ ВНЕШТАТНЫХ СИТУАЦИЙ В ДОРОЖНО-ТРАНСПОРТНОЙ ИНФРАСТРУКТУРЕ 

Авторы

Ляпин Артур Мансурович, аспирант, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), 
lyapinartur@gmail.com

Индекс УДК

004.048, 004.428.4

DOI

10.21685/2072-3059-2018-2-3

Аннотация

Актуальность и цели. Объектом исследования являются короткие сообщения из общедоступных источников, таких как социальные сети, форумы, открытые SMS-сообщения, имеющие прикрепленные геоданные о положении пользовате-
ля в момент публикации сообщения. Предметом исследования является классификация коротких сообщений с помощью методов интеллектуального анализа данных и сравнительный анализ методов «ближайших соседей» и «наивного
Байеса». Цель работы – разработка методологии интеллектуального анализа данных, позволяющая классифицировать сообщения без предварительного обучения системы. Проведена экспериментальная проверка разработанной методо-
логии на наборе данных, полученных из социальных сетей, с целью выявления внештатных ситуаций в дорожно-транспортной инфраструктуре.
Материалы и методы. Исследования обработки коротких текстовых сообщений из общедоступных источников с целью классификации дорожных инцидентов выполнены посредством методов интеллектуального анализа данных. Наборы данных для экспериментальной системы взяты из тематических форумов, групп социальных сетей и новостных сайтов.
Результаты. Предложена методология на основе ансамбля методов интеллектуального анализа данных, позволяющая классифицировать короткие текстовые сообщения без предварительного обучения системы. Разработана компьютерная программа на основе предложенной методологии, классифицирующая данные из общедоступных источников и отображающая полученные сообщения с прикрепленными геоданными на карте г. Пензы.
Выводы. Сравнительный анализ двух методов обработки данных показал, что метод «ближайших соседей» позволяет достичь большей точности на тестируемом наборе данных по сравнению с методом «наивного Байеса». Также это подтверждает утверждения, что методы машинного обучения можно успешно применять для обработки коротких текстовых сообщений разного характера и в разных сферах. Наряду с этим было выявлено, что информация, получаемая из социальных сетей и SMS-сообщений, является ценной для определения реакции участников дорожного движения в режиме реального времени.

Ключевые слова

интеллектуальная обработка данных, Smart city, метод k-ближайших соседей, внештатная дорожная ситуация

 

 Скачать статью в формате PDF

Список литературы

1. Википедия [Электронный ресурс]. – URL: https://en.wikipedia.org/wiki/Main_Page (дата обращения: 14.01.2018).
2. ВКонтакте [Электронный ресурс]. – URL: https://vk.com (дата обращения: 10.01.2018).
3. Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных “MachineLearning.ru”. – URL: http://www.machinelearning.ru (дата обращения: 16.01.2018).
4. Мерков, А. Б. Введение в методы статистического обучения / А. Б. Мерков. – Москва : Едиториал УРСС, 2011. – 254 с
5. Блог компании “Open Data Science”. – URL: https://habrahabr.ru/company/ods/ (дата обращения: 17.01.2018).
6. Марманис, Х . Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных / Х. Марманис, Д. Бабенко. – СПб. : Символ-Плюс, 2011. – 480 с.

 

Дата создания: 29.06.2018 15:32
Дата обновления: 14.12.2018 15:10